AI Agent

🕒 Published at:

https://www.youtube.com/watch?v=M2Yg1kwPpts

今天使用AI的方式：人类给予明确的口令，AI根据这一个口令做一个动作
AI Agent：人类给予目标，AI自动想办法完成

如何打造AI Agent？

RL

缺点：每一个任务都需要一个rl模型去训练

LLM

从LLM的角度看Agent要解决的问题

以LLM运行Agent的优势

原来以Alphago为例，它局限于事先设定好的有限的行为，只能在棋盘上落子；使用LLM，它有近乎无限的可能，而且可以使用外部工具
例如都是一个AI programmer出现了Compile error,如果是Typical Agent的话，就会给Agent一个Reward=-1，但是为什么是-1呢？如果是LLM Agent我们可以直接把错误的log发给agent，它获得更多资讯，就会给出更好的结果

AI Agent举例

Minecraft中的AI NPC
让AI使用电脑
用AI做科学研究

对于更加真实的互动情景

回合制互动到即时互动，外部环境变了，就立即采取新的行动

AI Agent关键能力

AI 如何根据经验调整行为

很多语言模型可以根据回馈来改变行为，不用调整或更新参数
Read模块其实相当于一个RAG模块，只不过检索的是自己的记忆
StreamBench 正面的反馈比负面的反馈更有用，也就是说你要告诉ai要去做什么，而不是不要做什么
Write就是决定目前的对话要不要存入Memory里
Reflection就是对记忆做出更高层次的总结和抽象，可以形成知识图谱

有记忆的GPT

AI如何使用工具

工具可以看做Function，使用工具就是调用这些Function，使用工具又叫Function Call
模型不必在意工具内部是怎么样运作的，只需要知道给它什么样的输入，可以得到什么样的输出

如何使用工具？

最常使用的就是搜索引擎
可以使用其他AI作为工具，例如一个只能识别文本的模型，可以使用语音识别的模型来得到文字，或者用户的情绪分析等

非常多工具怎么办？

做一个Tool Selection 模块来选择工具，其实跟RAG很像
而且模型可以自己写一个function当做工具自己来用

工具也会出错？

例如调用温度的function,如果得到100度，他会说这个温度不合理
内部的knowledge和外部的knowledge在做竞争

什么样的外部资讯比较容易说服AI？

跟自己内部知识比较相近的
相比于人类，更相信AI同类

就算工具可靠，不代表AI就不会犯错

AI能不能做计划

计划赶不上变化

PlanBench

LLM做计划？会不会是从资料里拿出来的？
创造一个新规则体系来测试

方法

Tree Search for Language Model Agents
做出的动作覆水难收，那就把制作计划当做“梦境”，找出一个成功的solution再做出行动